查看原文
其他

重磅 | Yann LeCun推荐:新证据出现,乔姆斯基的普遍语法理论正被颠覆

2016-09-10 机器之心

选自Scientific American

机器之心编译

作者:Paul Ibbotson, Michael Tomasello

参与:Rick、吴攀、李亚洲


诺姆·乔姆斯基的许多语言学革命——包括对我们学习语言的方法的描述——正在被颠覆。近日,Yann LeCun 在他的 Facebook 和 Twitter 上推荐了 Scientifc American 的这篇文章,他表示这在乔姆斯基的普遍语法理论的棺木上又多钉了几枚钉子。




我们的大脑天生具有学习语法的心理模板——这个被 MIT 的诺姆·乔姆斯基所信奉的知名观念——已经统治了语言学近半个世纪。尽管如此,由于新研究考察了许多不同的语言,最近认知科学家和语言学家们已经在成群结队地抛弃乔姆斯基的「普遍语法(universal grammar)」理论,也就是年幼的孩子学习理解并说当地社会语言的方式。这项工作没能支持乔姆斯基的主张。


这项研究提出了一个完全不同的观点,它认为一个儿童学习第一门语言的过程并不依赖于一个固有的语法模块。新的研究反而表明,年幼的孩子使用不同类型的思维方式,这个方式可能一点也不特定于语言——比如分类的能力(比如这是人还是物)以及了解事物之间关系的能力。这些能力,配合人类独特的获取其他人在交流中想要表达的含义的能力,就发生了语言。这项新的研究结果表明,如果研究人员真正想要了解孩子们和其他人如何学习语言,他们就需要走出乔姆斯基的理论。


这个结论是重要的,因为语言研究在不同学科中起着核心作用——从诗歌到人工智能再到语言学本身;误导的方法导致可疑的结果。此外,没有动物能够对应上人类使用语言的方式;如果你明白什么是语言,你就对人的天性多了一分了解。


乔姆斯基的第一版理论是在 20 世纪中期提出的,它与西方知识分子的生活中出现的两个新兴趋势相吻合。首先他指出,人们在日常生活中用来交流的语言,表现得就像是计算机科学领域中新兴的基于数学的语言。他的研究探讨了语言的基本计算结构,并提出了一套能创建出「构成良好(well-formed)」的句子的一系列流程。这个革命性的想法认为,一个类似计算机的程序可以产生出真实的人认为是符合语法规则的句子。据称这个程序也可以解释为人们造句的方式。这种讨论语言的方法引起了许多学者的共鸣,他们热衷于将一种计算方法信奉为一切。


随着乔姆斯基发展他的计算理论,他同时提出这种理论植根于人类生物学。二十世纪后半叶,正变得越来越明显的观点是:我们独特的进化史是造成我们独特的人类心理状态的许多方面的根源,因此乔姆斯基的理论也在该水平上与之共鸣。他的普遍语法是作为人类思维的先天成分被提出来——它允诺要揭示出世界 6000 多种人类语言的深层生物学基础。最强大的、且不说最美的科学理论揭示出表面多样性下隐藏着的统一性,那么这一理论就会立即引起关注。


但是不支持乔姆斯基的理论的证据已经出现了,后者多年来一直在缓慢地走向死亡。它死得太慢了,因为正如物理学家马克斯·普朗克曾指出的那样,年长的学者倾向于坚持旧方法:「科学每进一步就有一个葬礼。」


起初


20 世纪 60 年代最早的普遍语法化身采用「标准常态欧洲语(standard average European)」语言的基本结构作为它们的出发点——大多数从事这方面研究的语言学家都说这种语言。因此普遍语法程序以语言块的形式运行,比如名词短语(「不错的狗」)和动词短语(「喜欢猫」)。


然而相当快地,开始出现波动的多语种语言比较并不适合这个整洁的模式。一些澳大利亚本土语言,如 Warlpiri,它有散落在句子中的语法元素——没有被「打包整齐」因而不能够插入到乔姆斯基的普遍语法中去的名词和动词短语——和一些完全没有动词短语的句子。


这些所谓的异常值难以与建立在欧洲语言实例上的普遍语法相调和。乔姆斯基理论的其他例外来自于对「主动格(ergative)」语言的研究,比如巴斯克语或乌尔都语,其句子主语被使用的方式非常不同于许多欧洲语言,这再次挑战着普遍语法的理念。




这些发现连同语言理论工作,导致乔姆斯基和他的追随者在 20 世纪 80 年代期间大规模修改普遍语法的概念。该理论的新版本被称为原则和参数(principles and parameters),由一组控制语言结构的「通用(universal)」原则取代了囊括所有世界语言的一种单一的普遍语法。


这些原则在每种语言中都有不同的表现。打个比喻:我们天生拥有一组与文化、历史和地理相互作用着的基本味觉(甜、酸、苦、咸、鲜),从而在当今的世界美食中产生变化。这个原则和参数理论是语言学的一个味觉比喻。它们与文化(无论一个孩子是学习日语还是英语)相互作用从而语言学中产生了今天这些变化, 并定义了一套可能的人类语言。


比如西班牙语可以产生无需单独主语的完全合乎语法的句子——例如 Tengo zapatos (「I have shoes」),其中有鞋子的这个人,「我」,并没有由一个单独的词而是由动词末尾的「o」来表示。乔姆斯基争辩说,一旦孩子们遇到几个这种类型的句子,他们的大脑会设置一个「打开」开关,表示该句子主语应该被丢弃。然后他们就会知道他们可以在所有句子中丢弃这个主语。


这个「主语-丢弃」参数一般也决定了该语言的其他结构特征。这种普遍原则的概念相当适合许多欧洲语言。但是非欧洲区语言的数据表明,它们并不适合修订版的乔姆斯基理论。事实上已­­有研究试图去确定那些参数,比如主语–丢弃,这最终导致了对于普遍语法的第二化身的丢弃,因为它没能经得起推敲。


最近,在一篇发表于 2002 年的《科学》杂志上的著名论文中,乔姆斯基与其合著者描述了一个普遍语法,它只包含一个称作计算递归(computational recursion)的特征(尽管许多普遍语法的拥护者仍然宁愿假定存在许多普遍性的原则和参数)。这个新转变允许组合有限数量的单词和规则,从而产生无限多个句子。


由于递归在另一个类型相同的短语中嵌入短语的方式,无尽的可能性是存在的。例如英语能够将短语嵌入到右边(「John hopes Mary knows Peter is lying」)或中间(「The dog that the cat that the boy saw chased barked」)。无限地嵌入这些短语在理论上是可能的。在实践中,正如在这些例子所描述的,当这些短语被堆积在另一个短语上面时,理解就开始崩溃了。


乔姆斯基认为这种崩溃并不直接与语言本身有关。相反,它是人类记忆的一个局限性。


更重要的是,乔姆斯基提出这种递归能力使得语言独立于其他类型思维,比如分类以及感知事物之间的关系。最近他还提出,这种能力是由发生于­十万到五万年前的一个单一的遗传突变所引起。


之前,当语言学家真的去看了世界各地的语言变化时,他们发现了这一断言的反例,即这种递归是语言的一个本质属性。有些语言——例如亚马逊人的 Pirahã——似乎不兼容乔姆斯基的递归。


和所有语言理论一样,乔姆斯基的普遍语法试图达到一个平衡。这个理论必须简单得足够值得拥有。也就是说,它必须预测一些不在理论本身之中的东西(否则它只是一列事实)。但理论并不会如此简单,否则它就无法解释其应该解释的东西。以乔姆斯基的观点,在世界上所有的语言中,句子都有一个「主语」。问题是一个主语的概念更像是特征的一个「家族相似性(family resemblance)」而非一个整洁的类别。一个主语的特征大约由 30 种不同的语法特征所定义。任何一种语言将只有一个这些特征的子集——而这个子集往往不与其他语言重叠。


乔姆斯基试图定义语言的基本工具包组件——允许人类语言发生的某种心理机制。在那些反例被发现的地方,乔姆斯基的支持者就回应说那只是­­因为一种语言缺乏某种工具——例如递归——这并不意味着它不在工具包里。同样地,只是因为某种文化的季节性食物中缺少盐,并不意味着咸味就不在它的基本口味条目里。不幸的是,这种推理使得乔姆斯基的建议难以在实践中得到检验,而且在某些地方它们正濒临不可证伪的边缘。


死亡丧钟


乔姆斯基理论中的一个关键缺陷是当其被应用于语言学习时,它们规定年幼的儿童运用抽象语法规则造句的能力是与生俱来的。(精确的说法取决于的是哪个理论版本。)然而现在的大量研究表明,语言习得不是以这种方式发生的。相反年幼的孩子们是以学习简单的语法模式作为开始;然后他们渐渐地觉察到其背后规则的点点滴滴。


因此年幼的孩子最初只说基于特定单词模式的、具体而简单的语法结构:「Where’s the X?」;「I wanna X」;「More X」;「It’s an X」「I’m X-ing it」;「Put X here」;「Mommy’s X-ing it」;「Let’s X it」;「Throw X」;「X gone」;「Mommy X」;「I Xed it」;「Sit on the X」;「Open X」;「X here」;「There’s an X」;「X broken.」后来孩子们把这些早期的模式结合进更复杂的模式中,比如「Where’s the X that Mommy Xed?」


普遍语法的许多支持者都接受这种儿童早期语法发展的特点。但接着他们认为当更复杂的结构出现时,这个新阶段反映了一种使用普遍语法及其抽象语法类别和抽象语法原则的认知能力的成熟。


例如大多普遍语法方法都这假定说,一个儿童是通过遵循一组基于语法类别的规则来造问句,比如「What (宾语) did (助动词)you (主语)lose (动词)?」回答:「I(主语) lost(动词)something (宾语).」如果这个假设正确,那么在一个特定的发育期,儿童应该在所有 wh-似的问句中犯类似的错误。但儿童犯的错误并不符合这个预测。他们中的许多人在发育的早期都犯了下面这些错误,比如「Why he can’t come?」但同时当他们犯这个错误时——不能将「can’t」置于「he」之前——他们正确地使用「wh-疑问词」和助动词组织了其他问句,比如这句「What does he want?」


实验研究证实,儿童大都使用特殊 wh- 疑问词和助动词来造出正确的问句(通常是那些他们与之有大部分经验的单词,比如「What does ...」),在而含有其他(通常较少) wh- 疑问词和助动词结合的文具中继续犯错误:「Why he can’t come?」


普遍语法学家对这样的这种发现的主要反应是,儿童有语法能力而其他因素会阻碍他们的表现,因而它们隐藏了儿童们的语法的真实本质,也妨碍了他们对于「纯粹」的乔姆斯基语言学所假定的语法的学习。掩盖基本语法的那些因素,他们说,包括不成熟的记忆、注意力和社交能力。


然而乔姆斯基对儿童行为的解释不是唯一的可能。记忆、注意力和社交能力可能无法掩盖语法的真实状态;相反它们对于早期的语言建立很可能是不可或缺的。


例如最近一项由我们之中的某人(Ibbotson)所合著的研究表明,儿童造出正确的不规则过去时态动词——比如「Every day I fly, yesterday I flew」(不是「flyed」)——与他们抑制一个与语法无关的诱人响应的能力相关。(例如在看一张太阳的图片而要说出单词「moon」。)不是记忆、心理类比、注意力以及有关社交场合的反应阻碍了儿童表达乔姆斯基语言学的纯粹语法,那些智力可能解释了语言发展的方式。


随着跨语言学数据和工具包争论的撤退,表现掩盖了能力——这种思想也几乎无法证伪了。在衰退中的、缺乏一个强有力的经验基础的科学范式中,它们撤退到这类断言中去是常见的——例如思考一下弗洛伊德心理学和­­历史学的马克思主义解释。


即使超越这些对于普遍语法的实证挑战,从事儿童研究工作的心理语言学家很难在理论上构思这一过程,即儿童对所有语言在一开始都使用相同的代数语法规则,然后继续找出一种特定语言——无论是英语还是斯瓦希里语——是如何与规则体系相连接的。


语言学家称这个难题为连接(linking)问题,而在普遍语法的背景下去解决这个难题的一个不寻常的系统尝试,是由哈佛大学的心理学家 Steven Pinker 为研究句子主语所做的。然而 Pinker 的思考却并不符合儿童­­发展研究的数据,或者说并不适用于主语之外的其他语法类别。因此该连接问题——应当是将普遍语法应用到语言学习中去的中心问题——从未被解决,甚至从未被严肃对待过。


另一种观点


所有这一切都不可避免地导致了认为普遍语法完全是错误的的观点。当然,即使面对着有矛盾的证据,科学家也从不会放弃他们最喜欢的理论,直到有一种合理的替代理论出现。现在已经出现了这样一种替代理论,它被称为基于使用的语言学(usage-based linguistics)。这个有多种形式的理论提出语法结构并不是内生的。事实上,语法是历史(塑造语言形式的过程一代接一代)和人类心理(让一代人从一开始就学习的社会和认知能力集合)的产物。更重要的是,这个理论提出语言所使用的大脑系统可能并不是为此目的专门进化的,所以这不同于乔姆斯基的递归(recursion)的单基因突变的思想。


在这种新的基于使用的方法中(其中包括来自功能语言学、认知语言学和构式语法的思想),儿童并不是生而就具备普遍的、专门的学习语法的工具。相反他们继承了瑞士军刀式的在心智上全能的套件:一组通用目的的工具,包括归类、读取交流意图和进行类比;使用这些工具,儿童可以从其周围所听到的语言中学习语法类别和规则。


比如说,说英语的儿童理解「The cat ate the rabbit」,而且通过类比,他们也能理解「The goat tickled the fairy」。他们通过听一个又一个的样本来进行归纳。在经过了足够多的样本后,他们可能就能猜出句子「The gazzer mibbed the toma」中谁对谁做了什么,即便其中有的词本质上是胡言乱语的。语法是他们所要理解的超越词汇本身的东西,因为这些句子在词的水平上的相似度很低。


语言中的含义通过词本身的可能含义(比如「ate」这个词所表示的意思)和这些词所在的语法结构的含义之间的互动而涌现。比如说,尽管「sneeze」在词典中是一个不及物动词,只有单一的施动者(actor)(打喷嚏者),但如果有人强迫它成为一个双及物结构(可以由直接宾语和间接宾语),那么结果可能会是「She sneezed him the napkin」,其中「sneeze」是一种转移的动作(也就是说,她使这个餐巾纸到他那里去了)。这个句子表明语法结构对一个句子的含义的重要性和词的重要性一样。相比于乔姆斯基,他认为语言层面是完全不具备含义的。


这个瑞士军刀式的概念也能够解释语言学习,而不需要像普遍语法理论一样牵扯到两个现象。一是用于组合符号的一系列代数规则——一种内置于大脑中所谓核心语言(core grammar)。第二是一个词汇集(lexicon)——覆盖了自然语言中所有需要被学习的习语和特殊用法的例外情况列表。这种双路径的方法的问题是一些语法结构是部分基于规则的且又有部分不基于规则——比如说:「Him a presidential candidate?!」,其中的主语「him」保留了直接宾语的形式,但其在句子中的元素并不处在合适的位置上。使用同样的方法,一位英语母语者可以生成无限多个类似的句子:「Her go to ballet?!」或「That guy a doctor?!」所以问题就来了:这些话语是核心语言的一部分还是例外列表的一部分?如果他们不是核心语法的一部分,它们必须每次都要单独学习。但如果儿童可以学习这些部分规则,部分例外的话语,那为什么他们不能以同样的方式学习语言中的其它部分呢?换句话说,他们究竟为什么需要普遍语法?


事实上,普遍语法的思想与儿童通过社交学习语言和使用语言学社会随时间所创造的句子构建(sentence construction)获得实践的证据是矛盾的。在一些案例中,在这些学习过程的确切发生方式上我们有很好的数据。比如说,在世界各地的语言中,定语从句是相当常见的,而且往往源自不同句子的啮合。因此,如果有句子「My brother.... He lives over in Arkansas.... He likes to play piano.」因为各种各样的认知过程机制——涉及到图式化、习惯化、脱离语境和自动化(schematization, habituation, decontextualization and automatization)这些术语——这些短句可以融合成一个更为复杂的结构:「My brother, who lives over in Arkansas, likes to play the piano.」或者它们也可将「I pulled the door, and it shut」这样的句子逐渐变成「I pulled the door shut.」


更重要的是,我们似乎有一种能够解码他人的交际意图(说话人想说什么)的种族天赋。比如说,我不需要说「She donated the library some books」,我可以说「She gave/bequeathed/sent/loaned/­sold the library some books」。最近的研究表明存在一些能让儿童约束这些类型的不适当类比的机制。比如说,儿童不会做没有意义的类比。所以他们往往不会说「She ate the library some books.」此外,如果儿童常常听到「She donated some books to the library」,那么这就会抑制他们说「She donated the library some books」的想法。对于那些他或她尝试理解的人的交流意图,这样的约束机制会极大地限制他们会使用的可能类比。我们都会使用这种类型的意图读取,比如我们可以理解「你能为我开门吗?」是请求帮助,而不是询问对方是否具备开门的能力。


乔姆斯基允许在其关于语言工作方式的广义理论中的这类的「语用学(pragmatics)」——我们如何在语境中使用语言。考虑到语言能有多模糊,他也不得不这样做。但他似乎将语用看作是语法的主要工作的辅助。在某种程度上,来自基于用途的方法的贡献已经将其它方向上的争辩转变成了在说话者需要转向句法(syntax)规则前,语用对语言有多大作用。


基于用法的理论远远不能为语言的工作方式提供一个完整的解释。对儿童从所听到的口语句子和短语的有意义的归纳并不是儿童构建句子的方法的全部——而且有的归纳有意义但却不符合语法(比如:He disappeared the rabbit)。在儿童所有的有意义然而却不符合语法的归纳中,这种的似乎非常少。原因似乎是他们对他们所属的语言社区所确认的规范非常敏感,他们知道只能以「这种方式」进行交流。不过他们取得了一个微妙的平衡,因为儿童在语法规则上既具有创造性(「I goed to the shops」),又具有构造性(conformative,「I went to the shops」)。基于使用的理论还有很多的工作要做,以解释这些力量在童年的交互方式,以便能确切地解释语言发展的路径。


向前看


在乔姆斯基范式被提出来的时候,它是在当时流行的非正式方法上的一次彻底突破,它吸引了人们对足以支撑说话和理解语言的认知复杂性的关注。但乔姆斯基等人的理论在让我们可以看见新事物的同时,也让我们无法看到语言中的其它方面。在语言学极其相关领域,许多研究者原来越对完全形式化的语言不满,比如普遍语法——更不要提该理论的实证经验不足。此外,很多现代的研究者也并不满足于完全的理论分析,现在已经有了大量语言学数据的语料——许多可以在网上获取——这些可被用来对一项理论进行测试。


这个范式转换肯定是不完整的,但对很多人来说,它就像是涌入语言学领域的一股新鲜空气。通过研究世界上不同语言的细节,已经出现了一些激动人心的新发现:它们如何相似又如何不同、它们在历史上出现了怎样的变化,幼儿是如何获得一种或多种语言的能力的。


普遍语法看起来已经陷入了最终的死胡同。在这个地方,对基于使用的语言学的研究可以为全世界 6000 多种语言的学习、使用和历史发展的实证研究提供一个前进的途径。



©本文由机器之心编译,转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心(全职记者/实习生):hr@almosthuman.cn

投稿或寻求报道:editor@almosthuman.cn

广告&商务合作:bd@almosthuman.cn



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存